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基于 用 户 关系 的 跨 社 交 网 络 用 户 身份 关联 方法 
AAKS EES, FRA 


(中 国人 民 公 安 大 学 a 信息 技术 与 网 络 安全 学 院 ;b. 网 络 空间 安全 与 法 治 协同 创新 中 心 ， 北京 100038) 


JE 要 : 为 识别 出 不 同 社交 网 络 平 台中 属于 同一 自然 人 的 账号 ， 提 出 了 一 种 基于 用 户 关系 的 跨 社交 网 络 用 户 身 份 关 
联 方法 。 首 先 ， 设 计 了 基于 网 络 表 示 学 习 的 用 户 关 系 提取 模块 ， 将 大 规模 用 户 关系 转换 至 低 维 向 量 空间 进行 表示 ; 
然后 ， 针 对 异 构 信 息 网 络 改进 了 传统 网 络 表示 学 习 算 法 ， 提 出 了 CSN_LINE 算法 ， 实 现 融合 跨 社交 网 络 先 验 关 联 关 
系 的 网 络 表 示 ; 最 后 ， 构 建 了 基于 多 层 感 知 机 的 用 户 身 份 关联 模型 。 实 验 结果 表示 ， 提 出 的 方法 与 目前 先进 的 方法 
相 比 ， 综 合 指标 Fl 值 和 正确 率 的 提高 均 超过 12%， 证 明了 该 方法 的 合理 性 和 有 效 性 。 
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User identity linkage across social networks based on user relations 


Liu Qifei?, Du Yanhui* ^, Lu Tianliang* t 
(a. Information Technology & Network Security Institute, b. CIC of Security & Law for Cyberspace, People's Public 
Security University of China, Beijing 100038, China) 


Abstract: In order to distinguish the accounts that belong to the same person, this paper proposed a method to link user 
identity across social networks based on user relations. Firstly, we designed a user relations feature extraction module based 
on network representation learning. It could embed large information networks into low-dimensional vector spaces. 
Secondly, we proposed CSN LINE algorithm for heterogeneous information network. The improved algorithm could 
represent network combining with anchor links across networks. Finally, we constructed a user identity linkage model based 
on multi-layer perception . Experiments showed that the Fl rate and accuracy rate of this method increased over 1296 
compared with the current advanced algorithm. The validity and rationality of the method is proved. 
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0 引言 用 户 关 系 更 真实 地 展现 一 个 用 户 的 实际 情况 ， 体 现 着 一 个 
一 户 的 情感 、 兴 趣 , 反映 一 个 自然 人 在 现实 世界 中 的 社会 关系 ， 
Globalwebindex 公司 最 近 的 研究 表明 , 就 全 球 范围 来 看 ， 基于 用 户 的 社交 网 络 关 系 实现 跨 社 交 网 络 用 户 身份 关联 可 以 
98% 的 网 络 用 户 至 少 使 用 了 一 个 社交 网 络 ， 平 均 每 个 网 络 用 弥补 基于 用 户 属性 和 用 户 行为 的 一 些 不 足 ， 提 高 跨 社交 网 络 
户 拥有 7.6 个 网 络 账户 。 网 民 普 遍 拥有 多 个 社交 网 络 平台 的 “用 户 身份 关联 方法 的 鲁 棒 性 和 泛 化 能 力 。 
身份 ， 用 户 信息 分 散在 各 个 不 同 的 社交 网 络 平台 上 ， 为 了 打 研究 基于 用 户 关系 的 跨 社 交 网 络 用 户 身份 关联 问题 也 
息 孤 岛 ” 现 象 ， 实 现 多 源 异 构 数 据 融合 ， 进 行 跨 ”面临 着 许多 难题 ，a) 用 户 关 系 难以 进行 定量 表示 ， 将 用 户 关 
户 身份 关联 是 十 分 关键 。 用 户 身 份 关联 可 以 为 复 。 系 进行 网 络 表 示 并 反映 拓扑 结构 特征 比较 困难 ;b) 社 交 网 络 
杂 的 社交 网 络 分 析 业 务 提供 更 丰富 的 数据 支撑 。 例 如 刻画 出 平台 的 用 户 是 海量 的 ， 如 何在 大 规模 复杂 网 络 中 实现 高 效 的 
全 面 的 用 户 画 像 ， 帮 助 商 业 推 荐 系统 为 用 户 提供 更 精准 的 多 账号 关联 算法 是 一 个 难点 问题 ;c) 由 于 社交 网 络 的 无 标 度 
个 性 化 服务 ， 解 决 推荐 系统 “ 冷 启动 ”难题 ， 也 能 在 网 络 安 。 性 和 小 世界 性 ， 用 户 的 关系 拓扑 结构 存在 高 度 的 同 质 性 ， 难 
全 领域 为 识别 虚假 账号 、 非 法 账号 提供 支持 ， 拥 有 广泛 的 应 以 通过 算法 达到 精准 的 用 户 身份 关联 效果 。 
用 价值 ， 所 以 跨 社 交 网 络 用 户 身份 关联 是 十 分 有 意义 的 研究 针对 问题 ， 本 文 提出 了 一 种 基于 用 户 关系 的 跨 社 交 网 络 
用 户 身 份 关联 方法 ， 主 要 工作 如 下 : a) 利用 网 络 表 示 学 习 ， 
目前 有 许多 研究 关注 于 通过 用 户 属 怕 用 户 行为 设计 了 用 户 关系 的 特征 提取 方法 ， 将 用 户 关 系 特征 转换 至 低 
信息 进行 用 户 身份 关联 ， 也 取得 了 一 些 成 果 。 但 是 由 于 目前 ” 维 向 量 空间 中 进行 表示 ;b〉 针对 关联 同一 自然 人 在 不 同 社交 
隐私 保护 越 来 越 受 到 重视 ， 用 户 属 性 和 用 户 行为 信息 难以 获 网 络 平台 账号 这 一 应 用 场景 ， 面 向 此 类 异 构 信 息 网 络 ， 改 进 
取 ， 且 难以 确认 信息 的 真实 性 ， 这 给 用 户 身 份 关 联 带 来 了 极 了 传统 网 络 表 示 学 习 算 法 ， 提 出 了 CSN LINE;O 基于 多 层 
大 的 挑战 。 为 了 克服 这 一 困难 ， 充 分 利用 用 户 关系 是 很 有 意 ”感知 机 ， 设 计 了 基于 用 户 关系 的 跨 社交 网 络 用 户 身 份 关联 模 
义 的 ， 用 户 关 系 拓扑 结构 具有 匿名 性 ， 同 时 一 个 普通 的 网 民 ”型 ;d) 面向 新 浪 微 博 和 豆 准 ， 获 取 了 大 规模 用 户 关 系数 据 ， 
用 户 不 会 在 个 人 账户 中 虚假 地 添加 一 些 无 意义 的 关联 关系 ， 对 本 文 设计 的 方法 进行 了 训练 和 验证 。 
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RR 
1 ”相关 工作 


研究 者 通常 基于 用 


户 属 性 


| 户 行为 、 用 户 关系 三 个 不 


~ 


同 的 维度 设计 跨 社 交 网 络 用 户 身份 关联 方法 。 其 中 | 
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3 ，” 跨 社 交 网 络 用 户 身份 关联 方法 
本 文 提出 的 基于 用 户 关系 的 跨 社 交 网 络 用 户 身 份 关联 


户 属 性 


特征 主要 包括 用 户 名 、 个 人 描述 、 性 别 、 职 业 、 头 像 等 9， 
用 户 行为 特征 主要 包括 用 户 发 布 内 容 的 文体 风格 5 4、 用 户 


行动 轨迹 9 
相应 的 研究 。 


方法 主要 包括 两 个 关键 部 分 : 用 户 关 系 特 征 提取 模块 和 基于 
多 层 感 知 机 的 用 户 身份 关联 模型 ， 本 方法 的 流程 图 如 图 2 所 


等 。 在 用 户 关系 方面 ， 也 有 许多 研究 者 开展 了 


Liu 等 人 09 通过 长 期 行为 分 析 和 短期 多 角度 信息 匹配 来 


为 用 户 行为 建 模 ， 同 时 运用 用 户 的 ego-network 的 结构 同 构 


性 ， 提 出 HYDRA 多 账号 关联 方法 。Tan 等 人 0 利用 超 图 将 
网 络 关 系 表 示 为 矩阵 ， 


同时 通过 降低 矩阵 的 维度 来 减少 关联 


算法 的 计算 量 。 一 般 而 言 ， 用 户 关系 是 可 以 通过 邻接 矩阵 进 
但 在 大 规模 网 络 中 这 个 矩阵 比较 稀 疏 。Man EANA 
提出 了 PALE 方法 ， 利 


行 表示 ， 


网络 表示 学 习 将 用 户 节 点 映射 到 低 


维 向 量 空 间 进行 表示 ， 再 利用 关联 模型 实现 ) 


Feng 等 人 


JP EU X 
设计 了 两 种 新 的 衡量 不 同 社交 网 络 用 户 间 相似 


VH 


用 户 关 系 特 征 提取 
用 户 身份 关联 模型 


图 2 | 


户 身份 关联 方法 流程 图 


Flow of user identity association method 


Fig. 2 
其 中 用 户 关系 特征 提取 模型 实现 了 用 户 节点 网 络 拓扑 信息 的 


度 的 方法 。Zhang 等 人 04 提 出 了 COSNET 方法 , 综合 社交 网 


络 拓扑 图 的 局 部 匹配 信息 和 全 局 匹配 信息 ， 利 用 能 量 模型 来 


解决 多 账号 关联 问题 。 


Zhou 等 人 05 提 出 了 FRUI 771. 


， 充 分 


利用 已 关联 的 跨 社 交 网 络 | 


j 户 对 ， 大 大 降低 时 间 复 杂 度 。 江 


潜 等 人 09 利 ) 


j 众 包 的 方式 增加 训练 样本 的 数据 量 ， 然 后 运用 


全 视角 的 特 和 


E 来 衡量 用 户 之 间 的 相似 度 ， 提 出 了 一 种 基于 全 


基于 用 


视角 特征 结合 众 包 的 跨 社交 网 络 
2 BENi 


户 关 系 的 用 
识别 出 同一 自然 人 在 不 同 社交 网 络 平台 的 账号 ， 对 本 问题 进 


j 户 识别 方法 。 


站 身份 关联 的 目的 是 利用 用 户 关系 


行 形式 化 描述 如 下 。 


存在 两 个 不 同 的 社交 网 络 平台 ， 分 别 为 GA 和 Gs, Ga- 


(V^, E^), 


RAMB 中 的 用 户 
中 的 用 户 关系 集合 ， 跨 社交 网 络 关 联 关系 为 M, M={ Cv, u) 


Gs- CVP, EP), 其 中 VA 和 V3 表示 社交 网 络 平 
Efr, EA 和 ES 表示 社交 网 络 平台 A 和 B 


|vEVA s US 


然 人 的 用 户 对 。 


VB), 


集合 M 包含 不 同 社交 网 络 平台 中 属于 同 


如 图 1 所 示 , 在 社交 网 络 平台 AMBE, 平台 内 部 用 户 
之 间 存 在 一 些 关 联 关 系 〈 图 1 PRR), 例如 关注 关系 、 好 友 


之 间 的 关系 。 


e 

关系 等 ， 同 时 在 不 同 平 台 之 间 也 存在 一 些 先 验 关 联 关 系 〈 图 
1 中 上 方 3 条 虚线 ), 即 预先 确定 的 属于 同一 自然 人 的 
rA 
AR 


于 用 户 关 系 的 用 户 身 份 关联 需要 识别 出 更 多 未 被 发 现 的 跨 社 
网 络 关 联 关系 (图 1 中 下 方 两 条 虚线 )。 


JFR 
利用 上 述 平台 内 部 关系 和 平台 之 间 的 关系 ， 基 


社交 网 络 平台 A 


社交 网 络 平台 B 


一 一 平台 内 部 用 户 关系 
----- 跨 社 交 网 络 先 验 关联 关系 
一 一 待定 关联 关系 


图 1 基于 pij 


系 的 用 户 身份 关联 问题 


Fig. 1 


User identity association based on user relations 


向 量化 , 将 用 户 节 点 拓扑 特征 通过 低 维 稠密 的 向 量 进行 表示 。 
基于 多 层 感知 机 的 用 户 身 份 关联 模型 是 利用 多 层 感知 机 训练 
二 分 类 分 类 器 ， 实 现 来 自 不 同 社交 网 络 的 用 户 对 关联 与 否 的 
判断 。 


4 ”用 户 关系 特征 提取 


4.1 基于 网 络 表 示 学 习 的 特征 提取 

用 户 关系 是 社交 网 络 平台 的 基础 特性 ， 通 过 用 户 之 间 复 
和 杂 的 关联 关系 可 以 将 独立 的 用 户 个 体 连接 成 为 网 络 社区 ， 也 
就 形成 了 社交 网 络 。 在 不 同 平台 中 , 用 户 关 系 有 不 同 的 含义 ， 
主要 分 为 关注 关系 和 好 友 关 系 ， 代 表 相 应 的 社交 网 络 拓扑 图 
是 有 向 图 或 者 无 向 图 ， 例 如 ， 新 浪 微 博 是 一 种 典型 的 有 向 社 
交 网 络 , 用 户 之 间 建 立 的 关联 是 单方 面 的 关注 关系 ; facebook 
是 一 种 典型 的 无 向 社交 网 络 ， 用 户 之 间 建 立 的 关联 是 需要 双 
方面 确认 的 好 友 关 系 。 
为 了 实现 基于 用 户 关 系 的 用 户 身份 关联 ， 需 要 将 用 户 关 
系 转换 成 为 下 游 关联 模型 可 以 读 入 的 特征 。 利 用 网 络 表 示 学 
习 方 法 将 节点 表示 为 低 维 稠密 的 向 量 ， 可 以 作为 后 续 关 联 分 
析 模 型 的 输入 ， 如 图 3 所 示 。 


TI 


$999 s 
20599» s 


7 — 
cci GHD AD 9 


3 GH 
G v. 4 IIDD 200D 10 
网 络 拓扑 结构 节点 的 向 量 表示 


图 3 网 络 表示 学 习 
Fig.3 Network representation learning 

本 文 利 用 目前 流行 的 网 络 表示 学 习 方法 LINE. 算法 0 1， 
实现 用 户 节点 的 低 维 稠密 向 量 的 表示 ， 既 可 以 面向 有 向 图 ， 
也 可 以 面向 无 向 图 。 同 时 ， 由 于 本 文 的 研究 对 象 的 不 是 传统 
网 络 结构 ， 而 是 跨 社交 网 络 这 样 的 异 构 信息 网 络 ， 如 问题 分 
析 中 的 图 1 所 示 ， 研 究 对 象 网 络 源 自 两 个 不 同 的 社交 网 络 平 
台 ， 所 以 节点 类 型 有 两 种 ， 节 点 之 间 的 关系 也 有 两 种 。 传 统 
的 网 络 表 示 学 习 方 法 面向 单一 社交 网 络 平台 内 部 ， 不 能 反映 
跨 社 交 网 络 的 用 户 关 系 ， 所 以 为 了 充分 利用 跨 社交 网 络 先 验 
关联 关系 ， 提 高 网 络 表示 学 习 对 异 构 信 息 网 络 的 适用 性 ， 本 
文 提出 了 CSN_LINE 算法 。 
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录用 定稿 NFK, 


4.2 传统 的 LINE 算法 
传统 LINE 算法 定义 了 一 阶 亲密 度 和 二 阶 亲密 。 


等 : 基于 用 户 关系 的 跨 社 交 网 络 用 户 身份 关联 方法 
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量 ， 该 向 量 不 仅 体现 了 平台 内 部 的 关联 关系 ， 也 体现 了 平台 
之 间 的 关联 关系 ， 可 作为 节点 的 用 户 关系 特征 ， 通 过 网 络 表 


一 阶 亲 密度 代表 两 个 节点 之 间 的 直接 亲密 程度 ， 对 于 通 
过 边 〈i，j) 相连 的 节点 vi 和 ve WR G, 的 权重 为 
wi, M) wii 可 以 体现 节点 和 vi 的 一 阶 亲 密度 ， 
vj 之 间 没 有 连接 的 边 ， 则 其 一 阶 亲 密度 为 0。 


示 学 习 完成 了 用 户 关 系 特征 的 提取 。 
5 基于 多 层 感知 机 的 用 户 身 份 关联 模型 


经 过 节点 Vi 和 vi 之 间 的 实际 概率 和 经 验 概率 建 模 , 为 ] 


网 络 表示 学 习 的 结果 向 量 保留 一 阶 亲密 度 的 特性 ， 则 需要 


节点 Vi 和 
为 了 确定 来 自 不 同 社交 网 络 平台 的 两 个 用 户 是 否 属于 
同一 自然 人 ， 可 以 将 该 问题 转换 成 为 二 分 类 问题 ， 输 入 为 两 
个 不 同 社交 网 络 平台 的 用 户 特 征 向 量 ， 和 的 分 类 结果 1 
或 -1, 其 中 1 代表 两 个 用 户 属 于 同一 自然 人 , -1 代表 不 属于 同 


使 

最 小 化 一 阶 亲 密度 实际 概率 分 布 和 经 验 概率 分 布 的 差异 ， 可 
以 通过 KL 散 度 来 衡量 两 个 概率 分 布 的 距离 ， 最 终 ， 一 阶 亲 
密度 的 目标 函 


数 如 式 〈1) 所 示 。 
O =- >» wy log p,(v;,v;) (D 


G.eE 


其 中 :P1 Cvi v 为 一 阶 亲 密度 的 实际 概率 建 模 。 


一 自然 人 。 
在 跨 社交 网 络 用 户 身 份 关联 模型 中 ， 选 用 多 层 感 知 机 
MLP 作为 分 类 器 ， 由 于 目标 为 二 分 类 ， 所 以 输出 层 设置 为 两 
个 神经 元 。 将 待 关 联 的 第 一 个 社交 网 络 平台 的 用 户 节点 向 量 
和 第 二 个 社交 网 络 平台 的 用 户 节 点 向 量 进行 拼接 ， 成 为 一 个 


二 阶 亲密 度 表 示 两 个 节点 之 间 的 间接 杀 密 程度 ， 通 过 两 
个 节点 的 相同 邻居 节点 的 数量 来 衡量 ， 假 设 如 果 两 个 节点 有 
许多 相同 的 邻居 节点 ， 那 么 这 两 个 节点 也 会 更 加 亲近 。 如 果 
没有 任何 节点 同时 连接 和 vi, 那么 Vi 和 vi 的 二 阶 亲 密度 为 


与 一 阶 亲密 度 的 LINE 算法 同 理 ， 可 以 通过 KL 散 度 来 
量 两 个 概率 分 布 的 距离 ,二 阶 亲 密度 的 目标 函数 如 公式 (2) 


= 一 X w; log p;Gv;lv;) (2) 
(.DeE 


中 :Pz (vilvi) 为 二 阶 末 密 度 的 实际 概率 建 模 。 
通过 最 小 化 式 CIO (2) 的 目标 函数 ， 可 以 生成 保留 了 

节点 之 间 的 一 阶 亲 密度 和 二 阶 亲 密度 特性 的 向 量 表示 。 
4.3 CSN LINE 算法 

结合 跨 社 交 网 络 用 户 身 份 关 联 的 应 用 场景 ， 为 了 充分 利 
用 不 同 社交 网 络 之 间 的 关联 关系 ， 实 现 异 构 信 息 网 络 的 网 络 
表示 学 习 ， 本 文 提 出 融合 先 验 关 联 关系 的 一 阶 亲密 度 LINE 
算法 。 

针对 跨 社交 网 络 关 联 的 边 〈v，u)， 节 点 v 和 u 分 别 来 
自 不 同 的 社交 网 络 平台 。 节 点 间 的 实际 概率 分 布 如 式 (3) 所 
Ze 


AL 


1 
poa) rA d (3) 
于 边 (v. 0 表示 先 验 关联 关系 ， 也 就 是 已 知 的 属于 
同一 个 自然 人 的 账号 对 之 前 的 关系 ， 主 观 而 言 ， 该 类 型 的 边 
的 重要 程度 应 该 远 高 于 单一 平台 内 部 用 户 关 系 的 边 ， 故 在 其 
经 验 概 率 分 布 的 公式 中 添加 一 项 调节 参数 5 ， 经 验 概 率 如 式 
(4) 所 示 。 


Ow,, 
Buc (D 


其 中 :W 表示 网 络 中 所 有 边 的 权重 之 和 ，8 为 调节 参数 。 对 于 
边 无 权重 的 网 络 而 言 ，W 即 表示 边 的 数 。 如 果 两 个 节点 之 间 
有 连接 ， 则 ww=1， 如 果 两 个 节点 之 间 没 有 连接 ， 则 ww=0。 

同 理 ， 融 合 先 验 关联 关系 的 一 阶 亲密 度 的 目标 函数 如 式 
(5) 所 示 。 


A 


= 一 > ôw, log p,(v,u) (5) 
(vi)eM 


通过 最 小 化 式 (5) 
示 也 包含 跨 社交 网 络 的 先 验 关联 关系 的 特征 。 
本 文 提 出 的 CSN_LINE 算法 ， 针 对 式 (1) (2) (5) 的 
目标 函数 进行 优化 ， 利 用 随机 梯度 下 降 方 法 ， 学 习 节 点 的 向 
量 表 示 ， 最 终 可 得 到 两 个 不 同 社交 网 络 的 所 有 节点 的 低 维 向 


标 函 数 ， 可 以 使 得 节点 的 向 量 表 


长 向 量 ， 作 为 多 层 感知 机 的 输入 ， 输 入 的 神经 元 个 数 即 为 拼 
接 向 量 的 维 数 。 如 图 4 所 示 ， 其 中 隐 层 的 层 数 和 神经 元 数量 
没有 实际 含义 。 

将 一 批 已 知 的 属于 同一 自然 人 的 账号 对 拼接 向 量 作为 
正 样本 ， 不 属于 同一 自然 人 的 账号 对 拼接 向 量 作为 负 样本 ， 
对 多 层 感知 机 网 络 进行 训练 ， 训 练 好 的 分 类 器 即 可 作为 用 户 
身份 关联 模型 。 


> DKR XE 
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于 4 用 户 身 份 关联 的 多 层 感 知 机 网 络 

Fig.4 Multilayer perceptron network with user identity association 
6 ”实验 及 结果 分 析 
6.1 数据 集 描述 
搜集 跨 社 交 网 络 平台 用 户 身份 关联 的 数据 集 是 比较 转 
难 的 工作 ， 由 于 隐私 保护 的 原因 ， 几 乎 很 难 通过 用 户 的 隐私 
数据 《〈 手 机 号 、 邮 箱 号 等 ) 来 确定 属于 同一 自然 人 的 不 同 账 
户 。Veiga 等 人 151 提出 了 一 种 数据 收集 的 方法 ， 利 用 用 户 自 
己 发 布 的 内 容 寻 找 跨 社交 网 络 平台 线索 ， 例 如 用 户 在 某 一 个 
平台 中 公布 了 另 一 平台 个 人 页 面 的 链接 ， 这 种 数据 搜集 方法 
成 功 运 用 在 Twitter Instagram 和 Foursquare 三 个 境外 社交 网 
络 平台 上 。 

本 文 参考 Veiga 的 方法 ， 以 豆 流 和 新 浪 微 博 两 个 社交 网 

络 平台 为 研究 对 象 ， 获 取 了 大 规模 的 用 户 关系 数据 ， 数 据 情 
况 如 表 1 所 示 。 

K1 用 户 关 系数 据 情 况 
Table 1 User relationship data 


T 


DT 


平台 \ 属 性 节点 数 连接 数 / 边 数 
Lr 2 046 509 6 493 150 
新 浪 微 博 788 524 4412 187 
上 述 数 据 中 ， 路 社交 网 络 关联 用 户 对 共 14 457 对 ， 即 存 
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在 14 457 个 豆瓣 账号 和 14 457 个 新 浪 微 博 账号 分 别 属于 14 
457 个 不 同 自然 人 。 
因此 ,在 二 分 类 分 类 器 的 训练 中 ， 正 样本 为 14 457 对 先 
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络 的 网 络 表示 学 习 ， 通 过 先 验 关 联 关系 将 两 个 不 同 的 社交 网 
络 平台 整合 起 来 。 
为 了 证 明 CSN_LINE 算法 在 路 社交 网 络 用 户 身份 关联 应 


验 关联 节点 的 网 络 表 示 向 量 的 拼接 ， 其 标签 为 1， 同 时 随机 


场景 下 的 效果 ， 本 文 设置 了 对 比 实验 ， 在 对 比 实验 中 可 以 


aer 


选择 14 457 对 不 属于 同一 自然 人 的 账号 对 , 将 其 网 络 表示 向 
量 的 拼接 作为 负 样本 ， 其 标签 为 -1。 分 类 器 的 训练 样本 数据 
共 28914 条 。 
6.2 评价 指标 

本 文采 用 标准 的 评价 参数 进行 效果 评估 ， 包 括 准 确 率 
(precision), HPI (recall), F1 值 和 正确 率 〈accuracy )， 
分 别 表示 为 P、R、F1、Acc， 计 算 方法 如 式 (9) ~ (12) 所 
Ze 


lm 


tp 
= (6) 
tp + Jp 
R=—? (7) 
加 + fn 
pits (8) 
P+R 
Ag c—— Pom (9) 


^ p4tna fp fn 
其 中 : tp 表示 正确 预测 为 正 样本 的 数量 ， 印 表示 错误 预测 为 
正 样本 的 数量 ，tn 表示 正确 预测 为 负 样 本 的 数量 ，fn 表示 错 
误 预 测 为 负 样本 的 数量 。 
6.3 常用 网 络 表 示 学 习 算法 的 效果 对 比 
为 了 充分 利用 用 户 关系 特征 进行 跨 社 交 网 络 用 户 身份 


— 


进行 调整 的 参数 有 两 项 。 第 一 项 为 式 CO 中 的 调节 参数 8 ， 
通过 对 比 可 以 选择 本 实验 中 合适 的 调节 参数 值 ， 同 时 证 明 本 
文 提 出 的 CSN_LINE 算法 的 有 效 性 。 第 二 项 为 先 验 关联 关系 
的 数量 ， 由 于 训练 集 为 数据 集 的 70%， 故 训练 集中 有 10120 
条 先 验 关联 关系 ,实验 中 可 以 设置 不 同 数量 的 先 验 关 联 关系 ， 
以 证 明 融 合 先 验 关联 关系 的 一 阶 亲 密度 对 用 户 身份 关联 效果 
的 贡献 。 
在 本 实验 中 ， 调 节 参 数 5 值 分 别 设置 为 0、3、5、7、9， 
其 中 0 即 代表 不 使 用 融合 先 验 关联 关系 的 一 阶 亲 密度 。 使 用 
训练 集中 全 部 的 先 验 关联 关系 ， 共 10120 条 。 对 比 实验 结 

如 表 3 所 示 。 


表 3 常用 网 络 表 示 学 习 算 法 效果 对 比 2 
Table 3 Comparison 2 of the effect of common network 
representation Learning algorithm 
5 值 P R Fl Acc 
0 0.7736 0.9135 0.8178 0.8250 
3 0.7975 0.9065 0.8485 0.8399 
5 0.8058 0.9135 0.8563 0.8483 
7 0.8064 0.9103 0.8552 0.8475 
9 0.8116 0.9107 0.8583 0.8513 


从 实验 结果 分 析 ， 当 调节 参数 5 值 设置 为 5、7、9 时 ， 


关联 ， 选 择 一 种 最 适合 本 应 用 场景 的 网 络 表示 学 习 方 法 十 分 
重要 ， 所 以 本 实验 实现 了 常用 的 网 络 表示 学 习 算 法 


用 户 身 份 关 联 的 效果 保持 在 相对 较 高 的 水 平 ， 当 调节 参数 5 
值 设置 为 3 时， 用户 身份 关联 效果 中 等 ， 当 调节 参数 5 值 设 


Se. 


Deepwalk, LINE. Node2vec, FEH LINE 的 三 种 不 同 模 


为 0 时， 用户 身 份 关联 效果 相对 最 差 。 同 时 ， 相 比 于 传统 


X: 基于 一 阶 亲 密度 、 基 于 二 阶 亲 密度 、 基 于 一 阶 和 二 阶 杀 
密度 。 在 本 实验 中 ， 统 一 将 节点 的 网 络 表 示 向 量 维度 设 定 为 
50, Node2vec 算法 的 随机 游 走 参数 设置 为 p=0.25，q=0.25。 

同时 ， 为 了 衡量 不 同 网 络 表 示 学 习 算法 下 的 关联 效果 ， 
经 过 对 比 实验 ， 多 层 感 知 机 的 隐 层 设置 为 2 层 ， 每 层 的 神经 
元 个 数 为 200 个 ， 多 层 感知 机 通过 机 器 学 习 模 块 scikit-learn 
实现 。 在 训练 基于 多 层 感知 机 的 用 户 身 份 关联 模型 时 , 将 70% 
的 数据 集 作 为 训练 集 ， 剩 下 30% 的 数据 集 作 为 测试 集 。 实 验 
结果 如 表 2 所 示 。 
E2 ”常用 网 络 表示 学 习 算 法 效果 对 比 1 


Table 2 Comparison 1 of effect of common network representation 
learning algorithm 

算法 P R Fl Acc 
Deepwalk 0.4853 0.5258 0.5047 . 0.4896 
Node2vec 0.4834 | 0.5230 0.5024 0.4876 
LINE Corder1) 0.7191 0.7273 0.7232 0.7246 
LINE Corder2) 0.7596 | 0.9184 0.8315 0.8159 
LINE Corder142) 0.7736 | 0.9135 0.8378 0.8250 


LINE 算法 和 其 他 两 种 算法 是 基于 完全 不 同 的 网 络 表 示 
RK, LINE 算法 是 通过 优化 亲密 度 目 标 函 数 来 生成 节点 的 
HÆ, M Deepwalk、Node2vec 都 是 通过 随机 游 走 的 方式 得 
出 节点 序列 ， 然 后 利用 类 似 word2vec 的 神经 网 络 进行 训练 ， 
得 到 节点 的 向 量 。 从 实验 结果 可 以 知 ， 相 对 其 他 网 络 表示 学 
习 算 法 ， 当 使 用 基于 一 阶 和 二 阶 亲 密度 的 LINE 算法 时 ， 跨 
社交 网 络 用 户 身份 关联 效果 最 好 。 

6.4 CSN_LINE 算法 的 效果 验证 

本 文 改 进 了 传统 的 LINE 算法 ， 基 于 融合 先 验 关 联 关 系 

的 一 阶 杀 密度 ， 增 加 了 第 三 个 目标 函数 ， 实 现 了 异 构 信息 网 


LINE 算法 (5 值 为 0), 基于 CSN_LINE 算法 (5 [873 3. 5, 
7、9) 进行 用 户 身份 关联 效果 更 佳 , 证 明了 本 文 改进 的 LINE 
算法 的 有 效 性 。 

为 了 证 明 融 合 先 验 关联 关系 的 一 阶 亲 密度 对 跨 社 交 网 
络 用 户 身份 关联 效果 的 贡献 ， 本 文 进 一 步 设 置 了 对 比 实验 ， 
在 调节 参数 5 值 设置 为 5 的 情况 下 ,分 别 融合 训练 集中 2596. 
50W%、75%、100% 的 先 验 关联 关系 进行 网 络 表示 学 习 ， 实 验 
结果 如 图 5 所 示 。 
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图 5 融合 不 同 数量 先 验 关联 关系 的 效果 对 比 


Fig.5 | Comparison of effects of fusing different numbers of priori 


correlations 

从 图 5 中 分 析 可 知 ， 先 验 关 联 关 系 的 数量 越 多 ， 综 合 指 
标 Fl 值 和 正确 率 越 高 ， 基 于 用 户 关 系 的 跨 社 交 网 络 用 户 身 
份 关联 效果 越 好 ,证 明 本 文 CSN_LINE 算法 中 ， 先 验 关联 关 
系 对 用 户 身 份 关 联 效果 是 有 贡献 的 ， 基 于 融合 先 验 关 联 关 系 
的 一 阶 末 密 度 进 行 网 络 表 示 学 习 能 提高 用 户 身份 关联 的 效 
果 。 
6.5 方法 对 比 

将 本 文 提出 的 用 户 身 份 关联 方法 与 其 他 两 种 具有 代表 
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性 的 方法 进行 对 比 ， 证 明 本 文 方法 的 有 效 性 。 在 下 一 步 的 工作 中 ， 考 虑 搜集 更 全 面 的 用 户 数据 ， 结 合 
第 一 种 典型 的 方法 是 基于 共同 邻居 节点 的 数量 进行 用 用 户 属性 、 用 户 行为 、 用 户 关 系 三 个 主要 的 方面 ， 设 计 综 合 
户 身份 关联 ， 属 于 无 监督 学 习 方法 。 核 心思 想 是 面向 两 个 不 多 维度 特征 的 用 户 身 份 关 联 模型 ， 进 一 步 提高 用 户 身 份 关联 
同 平台 的 用 户 ， 大 其 邻居 节点 中 存在 许多 跨 平 台 关 联 的 节点 方法 的 准确 性 和 适用 性 。 
对 ， 则 这 两 个 用 户 也 很 可 能 属于 同一 个 自然 人 。Zhong 等 人 参考 文献 ， 
09 提 出 的 CoLink 方法 中 ， 针 对 两 个 不 同 平台 的 用 户 节点 ， 
计算 其 邻居 节点 中 属于 跨 平 台 关 联 的 节点 对 数量 ， 然 后 与 指 [1] AA, RRK, Hpt, $. 基于 用 户 名 特征 的 用 户 身份 同一 性 判定 
己 靖 值 进行 对 比 ， 知 超过 阔 值 则 判定 这 两 个 用 户 属 于 同一 自 方法 [J]. 计算 机 学 报 ，2015，38(10): 2028-2040. (Liu Dong, Wu 
BRA. Sun 等 人 四 提出 的 方法 和 齐 林峰 R29 提出 的 方法 在 用 户 Quanyuan, Han Weihong, et al. User Identification across multiple 
关系 方面 也 使 用 了 类 似 的 策略 。 websites based on username features [J]. Chinese Journal of Computers, 
第 二 种 典型 的 方法 是 利用 网 络 表示 学 习 对 节点 进行 低 2015, 38(10): 2028-2040. ) 
维 向 量 表示 ， 然 后 利用 机 器 学 习 算 法 进行 用 户 身 份 关联 模型 [2] Zafarani R, Tang L, Liu H. User identification across social media [J]. 
的 训练 ， 属 于 有 监督 学 习 方 法 。Man 等 人 02 提 出 的 PALE ACM Trans on Knowledge Discovery from Data，2015，10(2): 
ik. IH LINE 算法 的 一 阶 亲 密度 进行 节点 表示 ， 然 后 通 1602-1630. 
单 隐 层 的 多 层 感 知 机 作为 关联 功能 模块 。 [] 吴 铮 ,于 洪涛 , 刘 树 新 ,等 .基于 信息 炳 的 跨 社 交 网 络 用 户 身份 识别 方法 
T a 验 结 果 如 图 6 所 示 。 UJ]. 计算 机 应 用 , 2017,37(8): 2374-2380. (Wu Zheng, Yu Hongtao, Liu 
0.9 Shuxin, et al. User identification across multiple social networks based 
on information entropy [J]. Journal of Computer Applications, 2017, 37 
(8): 2374-2380. ) 

[4] Sun Song, Li Qiudan, Yan Peng, et al. Mapping users across social 
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